AI资讯新闻榜单内容搜索-Attention

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

5540 点击 2025-08-12 11:07

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

6007 点击 2025-07-06 14:56

深度分析：为什么a16z敢1500万美金押注一个"作弊工具"？Attention is All You Need的AI时代！

你有没有想过，一个因为开发作弊工具被哥伦比亚大学开除的 21 岁学生，竟然能在短短几个月内获得 a16z 领投的 1500 万美元融资？

来自主题: AI资讯

7164 点击 2025-06-29 11:31

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

越通用，就越World Models。我们知道，大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

来自主题: AI技术研报

6667 点击 2025-06-14 13:22

Transformer八周年！Attention Is All You Need被引破18万封神

Transformer已满8岁，革命性论文《Attention Is All You Need》被引超18万次，掀起生成式AI革命。Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。更重要的是，它让人类真正跨入了生成式AI时代。

来自主题: AI资讯

8004 点击 2025-06-13 14:53

论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

「未来，99% 的 attention 将是大模型 attention，而不是人类 attention。」这是 AI 大牛 Andrej Karpathy 前段时间的一个预言。这里的「attention」可以理解为对内容的需求、处理和分析。也就是说，他预测未来绝大多数资料的处理工作将由大模型来完成，而不是人类。

来自主题: AI资讯

8445 点击 2025-04-07 17:09